智能论文笔记

Prompt Tuning with Soft Context Sharing for Vision-Language Models

Kun Ding , Ying Wang , Pengzhang Liu , Qiang Yu , Haojian Zhang , Shiming Xiang , Chunhong Pan

分类：计算机视觉

2022-08-29

视觉模型最近在许多计算机视觉任务上显示出巨大的潜力。同时，与线性探针相比，先前的工作表明，与线性探针相比，这是较少的图像识别的迅速调整，可以在很少的图像识别上获得卓越的性能。在实际应用程序中，相关的几个射击任务是相关的，尤其是在专业领域。但是，以前的工作忽略了此类信息。受到以下事实的启发，即通过多任务学习通常可以提高性能，我们提出了一种新颖的方法softcpt（迅速调整的软上下文共享），以微调多个目标几个目标任务的预训练的视觉模型，同时。具体来说，我们设计了一个任务共享的元网络，以使用预定义的任务名称以及可学习的元提示为输入为每个任务生成提示向量。因此，所有任务的迅速向量将以软的方式共享。该共享的元网络的参数以及元提示向量都在所有目标任务的联合培训集中调整。在三个多任务少量数据集上进行的广泛实验表明，SoftCpt的表现优于代表性的单任务提示方法Coop [78]，这意味着多任务学习在视觉及时及时调整中的有效性。源代码和数据将公开可用。

translated by 谷歌翻译

An Initial Investigation for Detecting Vocoder Fingerprints of Fake Audio

Xinrui Yan , Jiangyan Yi , Jianhua Tao , Chenglong Wang , Haoxin Ma , Tao Wang , Shiming Wang , Ruibo Fu

分类：人工智能

2022-08-20

已经进行了许多有效的尝试来进行虚假的音频检测。但是，他们只能提供检测结果，但没有对抗这种伤害的对策。对于许多相关的实际应用，也需要哪种模型或算法生成假音频。因此，我们提出了一个新问题，用于检测虚假音频的Vocoder指纹。实验是在由八个最先进的歌手合成的数据集上进行的。我们已经初步探索了功能和模型体系结构。T-SNE可视化表明，不同的Vocoder会生成不同的Vocoder指纹。

translated by 谷歌翻译

Deepfake Video Detection with Spatiotemporal Dropout Transformer

Daichi Zhang , Fanzhao Lin , Yingying Hua , Pengju Wang , Dan Zeng , Shiming Ge

分类：计算机视觉 | 人工智能

2022-07-14

尽管最近对Deepfake技术的滥用引起了严重的关注，但由于每个帧的光真逼真的合成，如何检测DeepFake视频仍然是一个挑战。现有的图像级方法通常集中在单个框架上，而忽略了深击视频中隐藏的时空提示，从而导致概括和稳健性差。视频级检测器的关键是完全利用DeepFake视频中不同框架的当地面部区域分布在当地面部区域中的时空不一致。受此启发，本文提出了一种简单而有效的补丁级方法，以通过时空辍学变压器促进深击视频检测。该方法将每个输入视频重组成贴片袋，然后将其馈入视觉变压器以实现强大的表示。具体而言，提出了时空辍学操作，以充分探索斑块级时空提示，并作为有效的数据增强，以进一步增强模型的鲁棒性和泛化能力。该操作是灵活的，可以轻松地插入现有的视觉变压器中。广泛的实验证明了我们对25种具有令人印象深刻的鲁棒性，可推广性和表示能力的最先进的方法的有效性。

translated by 谷歌翻译

Expanding Language-Image Pretrained Models for General Video Recognition

Bolin Ni , Houwen Peng , Minghao Chen , Songyang Zhang , Gaofeng Meng , Jianlong Fu , Shiming Xiang , Haibin Ling

分类：计算机视觉

2022-08-04

对比性语言图像预测在学习网络尺度数据的视觉文本联合表示方面取得了巨大的成功，这表明了各种图像任务的显着“零射”概括能力。但是，如何有效地将这种新的语言图像预处理方法扩展到视频域仍然是一个开放的问题。在这项工作中，我们提出了一种简单而有效的方法，该方法将预验证的语言图像模型直接适应视频识别，而不是从头开始预处理新模型。更具体地说，为了捕获沿时间维度框架的远距离依赖性，我们提出了一种跨框架注意机制，该机制明确地跨帧交换信息。这样的模块是轻量级的，可以无缝地插入验证的语言图像模型中。此外，我们提出了一个特定于视频的提示方案，该方案利用视频内容信息生成歧视性文本提示。广泛的实验表明，我们的方法是有效的，可以推广到不同的视频识别方案。特别是，在完全监督的设置下，我们的方法在Kinectics-400上获得了最高1的精度为87.1％，而与SWIN-L和Vivit-H相比，使用量少12倍。在零拍摄的实验中，我们的方法超过了当前的最新方法 +7.6％和 +14.9％，而在两个流行协议下，TOP-1的准确性。在少数拍摄的情况下，当标记的数据非常有限时，我们的方法优于先前的最佳方法 +32.1％和 +23.1％。代码和型号可在https://aka.ms/x-clip上找到

translated by 谷歌翻译

Pro-tuning: Unified Prompt Tuning for Vision Tasks

Xing Nie , Bolin Ni , Jianlong Chang , Gaomeng Meng , Chunlei Huo , Zhaoxiang Zhang , Shiming Xiang , Qi Tian , Chunhong Pan

分类：计算机视觉

2022-07-28

在计算机视觉中，微调是利用预训练的视觉模型来执行下游任务的事实上的方法。但是，由于采用参数效率低下的全局更新并严重依赖于高质量的下游数据，因此在实践中部署它是非常具有挑战性的。最近，基于及时的学习添加了与任务相关的提示，以使下游任务适应预训练的模型，从而极大地提高了许多自然语言下游任务的性能。在这项工作中，我们扩展了这种显着的转移能力，从迅速的愿景模型中受益，以替代微调。为此，我们提出了参数有效的及时调整（亲调整），以使冷冻视觉模型适应各种下游视觉任务。实行调整的关键是基于及时的调整，即学习特定于任务的视觉提示，以使用预先训练的模型冷冻的下游输入图像。通过仅培训一些其他参数，它可以在基于CNN和基于变压器的各种架构上工作。广泛的实验证据表明，在广泛的视觉任务和场景中，主张表现优于微调，包括图像分类（通用对象，类失衡，图像腐败，对抗性稳定性和分布范围内的概括）和密集的预测任务例如对象检测和语义分割。

translated by 谷歌翻译

Domain Decorrelation with Potential Energy Ranking

Sen Pei , Jiaxi Sun , Shiming Ciang , Gaofeng Meng

分类：计算机视觉

2022-07-25

机器学习系统，尤其是基于深度学习的方法，在实验设置下的现代计算机视觉任务中享有巨大成功。通常，这些经典的深度学习方法建立在\ emph {i.i.d。}假设上，假设训练和测试数据是独立且相同的相同分布绘制的。但是，在现实世界中，通常无法获得上述\ emph {i.i.d。}的假设，因此导致深度学习算法的急剧性能衰减。在此背后，域转移是要责备的主要因素之一。为了解决此问题，我们建议使用\ textbf {po} tient \ textbf {e} nergy \ textbf {r} anking（poer）将对象功能和域特征（\ emph {i.e.e。在给定的图像中，促进对标签 - 歧义特征的学习，同时滤除对象与背景之间的无关相关性。 POER帮助神经网络捕获与标签相关的功能，这些功能首先包含域信息，然后逐渐逐渐蒸发标签 - 歧义表示形式，从而强制执行神经网络，以了解对象和背景的特征，这对物体和背景至关重要生成域不变特征。 Poer报告了域泛化基准的卓越性能，与现有方法相比，平均TOP-1的准确性至少提高了1.20 \％。此外，我们在ECCV 2022 NICO Challenge \ footNote {https://nicochallenge.com}中使用POER，仅使用Vanilla Resnet-18获得顶级。该代码已在https://github.com/foreverps/poer上提供。

translated by 谷歌翻译

Multimodal Fake News Detection with Adaptive Unimodal Representation Aggregation

Qichao Ying , Yangming Zhou , Zhenxing Qian , Dan Zeng , Shiming Ge

分类：计算机视觉

2022-06-12

互联网技术的发展不断增强谣言和虚假新闻的传播和破坏力。先前关于多媒体假新闻检测的研究包括一系列复杂的功能提取和融合网络，以实现图像和文本之间的特征对齐。但是，多模式功能由什么组成，以及来自不同模式的特征如何影响决策过程仍然是开放的问题。我们介绍了Aura，这是一个具有自适应单峰表示聚合的多模式假新闻检测网络。我们首先从图像模式，图像语义和文本中分别提取表示形式，并通过将语义和语言表示形式发送到专家网络来生成多模式表示。然后，我们根据单峰和多模式表示，进行粗级的虚假新闻检测和跨模式宇宙性学习。分类和一致性得分被映射到模态感知的注意分数，以重新调整功能。最后，我们汇总并将加权功能分类用于精制的假新闻检测。关于微博和八卦的综合实验证明，Aura可以成功击败几个最先进的FND方案，在该方案中，整体预测准确性和对假新闻的回忆得到稳步改善。

translated by 谷歌翻译

WebUAV-3M: A Benchmark for Unveiling the Power of Million-Scale Deep UAV Tracking

Chunhui Zhang , Guanjie Huang , Li Liu , Shan Huang , Yinan Yang , Xiang Wan , Shiming Ge , Dacheng Tao

分类：计算机视觉

2022-01-19

无人驾驶飞机（UAV）跟踪对于诸如交货和农业等广泛应用具有重要意义。该领域的先前基准分析主要集中在小规模的跟踪问题上，同时忽略了数据模式的类型，目标类别和方案的多样性以及所涉及的评估协议的数量，从而极大地隐藏了深度无人机跟踪的巨大功能。在这项工作中，我们提出了迄今为止最大的公共无人机跟踪基准Webuav-3M，以促进深度无人机跟踪器的开发和评估。 Webuav-3M在4,500个视频中包含超过330万帧，并提供223个高度多样化的目标类别。每个视频都通过有效且可扩展的半自动目标注释（SATA）管道密集注释。重要的是，要利用语言和音频的互补优势，我们通过提供自然语言规格和音频描述来丰富Webuav-3M。我们认为，这种增加将大大促进未来的研究，以探索语言功能和音频提示，用于多模式无人机跟踪。此外，构建了scenario约束（UTUSC）评估协议和七个具有挑战性的场景子测验集，以使社区能够开发，适应和评估各种类型的高级跟踪器。我们提供了43个代表性跟踪器的广泛评估和详细分析，并设想了深度无人机跟踪及其他领域的未来研究方向。数据集，工具包和基线结果可在\ url {https://github.com/983632847/webuav-3m}中获得。

translated by 谷歌翻译

Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

Kailun Wu , Weijie Bian , Zhangming Chan , Lejian Ren , Shiming Xiang , Shuguang Han , Hongbo Deng , Bo Zheng

分类：机器学习

2021-12-21

如今，数据驱动的深度神经模式已经在点击率（CTR）预测上已经显示出显着的进展。不幸的是，当数据不足时，这种模型的有效性可能会失败。为了处理这个问题，研究人员经常采用勘探战略来审查基于估计奖励的项目，例如UCB或汤普森采样。在CTR预测的开发和探索的背景下，最近的研究已经尝试利用预测不确定性以及模型预测作为奖励得分。但是，我们认为这种方法可以使最终排名分数偏离原始分布，从而影响在线系统中的模型性能。在本文中，我们提出了一种名为\ textbf {a} dversarial \ textbf {g} vlient driven \ textbf {e} xploration（年龄）的新颖探索方法。具体地，我们提出了一个伪探索模块来模拟渐变更新过程，其可以近似模型的探索项目的样本的影响。此外，为了更好的探索效率，我们提出了一种动态阈值单元，以消除具有低电位CTR的样本的效果。在开放式学术数据集上证明了我们方法的有效性。同时，年龄也部署在现实世界展示广告平台中，所有在线指标都得到了显着改善。

translated by 谷歌翻译

TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning

Shiming Chen , Ziming Hong , Guo-Sen Xie , Jian Zhao , Xinge You , Shuicheng Yan , Ling Shao

分类：计算机视觉 | 人工智能

2021-12-16

零射击学习（ZSL）通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注，现有的基于关注的模型在单个图像中努力学习劣势区域特征，这忽略了视觉特征的可转换性和辨别属性定位。在本文中，我们提出了一个跨属性引导的变换器网络，称为Transzero ++，以改进可视化功能，并学习精确的属性本地化，用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网（AVT）和Visual $ \ LightArrow $属性变压器子网（增值税）组成。具体而言，AVT首先采用功能增强编码器来缓解交叉数据集问题，并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后，使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地，VAT使用类似的功能增强编码器来改进视觉功能，这些功能进一步应用于Visual $ \ lightarrow $属性解码器，以学习基于Visual-基的属性功能。通过进一步引入语义协作损失，两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明，Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于：\ url {https://github.com/shiming-chen/transzero_pp}。

translated by 谷歌翻译